# 安装依赖（运行前执行）
# pip install langchain-community unstructured pymupdf

from langchain_community.document_loaders import (
    UnstructuredFileLoader,
    PyMuPDFLoader,
    CSVLoader,
    WebBaseLoader
)

# 场景1：加载本地Word文档（按段落分割）
word_loader = UnstructuredFileLoader(
    "samples/中国资管科技发展报告.docx",
    mode="elements"  # 按自然段落拆分
)
word_docs = word_loader.load()
print(f"Word段落数: {len(word_docs)}")  # 输出段落数量

# 场景2：解析PDF并保留元数据
pdf_loader = PyMuPDFLoader("paper.pdf")
pdf_docs = pdf_loader.load()
# 查看第一页内容
print(pdf_docs[0].page_content[:100])  # 前100字符
print(pdf_docs[0].metadata)  # {'source': 'paper.pdf', 'page': 1}

# 场景3：加载CSV表格数据（自定义列名）
csv_loader = CSVLoader(
    "sales.csv",
    csv_args={"fieldnames": ["日期", "销售额", "区域"]}
)
csv_docs = csv_loader.load()
# 输出首行数据
print(csv_docs[0].page_content)  # "日期: 2023-01, 销售额: 150万, 区域: 华东"

# 场景4：抓取网页内容
web_loader = WebBaseLoader(["https://news.qq.com"])
web_docs = web_loader.load()
print(f"抓取到{len(web_docs)}篇网页内容")
